# RISC-V Implementação Pipeline

GEX 612 - Organização de Computadores

Prof. Luciano L. Caimi Icaimi@uffs.edu.br



#### Recursos

Simulador Ripes



https://github.com/mortbopet/Ripes

Simulador WebRISC-V

http://x.dii.unisi.it:8098/~giorgi/WebRISC-V/index.php



#### Introdução: Arquitetura Multinível





#### Introdução: RISC-V - ISA



#### Formato das Instruções:

|                        |                     | 612 |    |     |       |    |    |            | 3          | 2-bit | RIS      | SC-V | Instr | uctio | n Fo   | rma    | ts     |       |    |    |     |      |     |      |     |    |    |     |    |   |   |   |
|------------------------|---------------------|-----|----|-----|-------|----|----|------------|------------|-------|----------|------|-------|-------|--------|--------|--------|-------|----|----|-----|------|-----|------|-----|----|----|-----|----|---|---|---|
| Instruction<br>Formats | 31                  | 30  | 29 | 28  | 27    | 26 | 25 | 24         | 23         | 22    | 21       | 20   | 19    | 18    | 17     | 16     | 15     | 14    | 13 | 12 | 11  | 10   | 9   | 8    | 7   | 6  | 5  | 4   | 3  | 2 | 1 | 0 |
| Register/register      | funct7 rs2          |     |    |     |       |    |    |            | rs1 funct3 |       |          |      | rd    |       |        |        | opcode |       |    |    |     |      |     |      |     |    |    |     |    |   |   |   |
| Immediate              | imm[11:0]           |     |    |     |       |    |    |            | rs1 funct3 |       |          | rd   |       |       |        | opcode |        |       |    |    |     |      |     |      |     |    |    |     |    |   |   |   |
| Upper<br>Immediate     | imm[31:12]          |     |    |     |       |    |    |            |            |       |          |      |       |       |        |        |        |       | rd |    |     |      |     | ot   | oco | de |    |     |    |   |   |   |
| Store                  | imm[11:5] rs2       |     |    |     |       |    |    | rs1 funct3 |            |       | imm[4:0] |      |       |       | opcode |        |        |       |    |    |     |      |     |      |     |    |    |     |    |   |   |   |
| Branch                 | [12]                |     | 1  | imm | [10:5 | ]  |    | rs2        |            |       |          |      |       | rs1   |        |        | 1      | funct | 3  | i  | mm[ | 4:1] |     | [11] |     |    | op | oco | de |   |   |   |
| Jump                   | [20] imm[10:1] [11] |     |    |     |       |    | ]  |            | j          | mm[   | 19:1     | 2]   |       |       | fi.    |        | rd     |       |    |    |     | op   | oco | de   |     |    |    |     |    |   |   |   |

- opcode (7 bit): partially specifies which of the 6 types of instruction formats
- funct7 + funct3 (10 bit): combined with opcode, these two fields describe what operation to perform
- . rs1 (5 bit): specifies register containing first operand
- . rs2 (5 bit): specifies second register operand
- · rd (5 bit):: Destination register specifies register which will receive result of computation

## Introdução: RISC-V - modos de endereçamente

1. Immediate addressing



2. Register addressing



3. Base addressing, i.e., displacement addressing



4. PC-relative addressing



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores

#### Introdução: RISC-V - ISA



#### Instruções RV32I

| LUI | 0110111 | rd          | imm[31:12]            |     |               |              |  |  |  |  |  |  |
|-----|---------|-------------|-----------------------|-----|---------------|--------------|--|--|--|--|--|--|
| AUI | 0010111 | rd          | imm[31:12]            |     |               |              |  |  |  |  |  |  |
| JAL | 1101111 | rd          | imm[20 10:1 11 19:12] |     |               |              |  |  |  |  |  |  |
| JAL | 1100111 | rd          | 000                   | rs1 | )]            | imm[11:0]    |  |  |  |  |  |  |
| BEQ | 1100011 | imm[4:1 11] | 000                   | rs1 | rs2           | imm[12 10:5] |  |  |  |  |  |  |
| BNE | 1100011 | imm[4:1 11] | 001                   | rs1 | rs2           | imm[12 10:5] |  |  |  |  |  |  |
| BLT | 1100011 | imm[4:1 11] | 100                   | rs1 | rs2           | imm[12 10:5] |  |  |  |  |  |  |
| BGF | 1100011 | imm[4:1 11] | 101                   | rs1 | rs2           | imm[12 10:5] |  |  |  |  |  |  |
| BLT | 1100011 | imm[4:1 11] | 110                   | rs1 | rs2           | imm[12 10:5] |  |  |  |  |  |  |
| BGE | 1100011 | imm[4:1 11] | 111                   | rs1 | rs2           | imm[12 10:5] |  |  |  |  |  |  |
| LB  | 0000011 | rd          | 000                   | rs1 | )]            | imm[11:0     |  |  |  |  |  |  |
| LH  | 0000011 | rd          | 001                   | rs1 | )             | imm[11:0     |  |  |  |  |  |  |
| LW  | 0000011 | rd          | 010                   | rs1 | )             | imm[11:0     |  |  |  |  |  |  |
| LBU | 0000011 | rd          | 100                   | rs1 | imm[11:0]     |              |  |  |  |  |  |  |
| LHU | 0000011 | rd          | 101                   | rs1 | imm[11:0]     |              |  |  |  |  |  |  |
|     | 0100011 | imm[4:0]    | 000                   | rs1 | imm[11:5] rs2 |              |  |  |  |  |  |  |
| SH  | 0100011 | imm[4:0]    | 001                   | rs1 | rs2           | imm[11:5]    |  |  |  |  |  |  |
| SW  | 0100011 | imm[4:0]    | 010                   | rs1 | rs2           | imm[11:5]    |  |  |  |  |  |  |

| ADDI    | 0010011 | rd               | 000 | rs1   |           | nm[11:0]  | in        |  |  |  |
|---------|---------|------------------|-----|-------|-----------|-----------|-----------|--|--|--|
| SLTI    | 0010011 | rd               | 010 | rs1   |           | nm[11:0]  | in        |  |  |  |
| SLTIU   | 0010011 | rd               | 011 | rs1   |           | nm[11:0]  | in        |  |  |  |
| XORI    | 0010011 | rd               | 100 | rs1   | imm[11:0] |           |           |  |  |  |
| ORI     | 0010011 | rd               | 110 | rs1   |           | nm[11:0]  | in        |  |  |  |
| ANDI    | 0010011 | rd               | 111 | rs1   |           | nm[11:0]  | in        |  |  |  |
| SLLI    | 0010011 | rd               | 001 | rs1   | shamt     |           | 0000000   |  |  |  |
| SRLI    | 0010011 | $_{\rm rd}$      | 101 | rs1   | shamt     |           | 0000000   |  |  |  |
| SRAI    | 0010011 | $_{\rm rd}$      | 101 | rs1   | shamt     |           | 0100000   |  |  |  |
| ADD     | 0110011 | $_{\rm rd}$      | 000 | rs1   | rs2       |           | 0000000   |  |  |  |
| SUB     | 0110011 | $_{\rm rd}$      | 000 | rs1   | rs2       |           | 0100000   |  |  |  |
| SLL     | 0110011 | $_{\rm rd}$      | 001 | rs1   | rs2       |           | 0000000   |  |  |  |
| SLT     | 0110011 | rd               | 010 | rs1   | rs2       |           | 0000000   |  |  |  |
| SLTU    | 0110011 | rd               | 011 | rs1   | rs2       |           | 0000000   |  |  |  |
| XOR     | 0110011 | rd               | 100 | rs1   | rs2       |           | 0000000   |  |  |  |
| SRL     | 0110011 | rd               | 101 | rs1   | rs2       |           | 0000000   |  |  |  |
| SRA     | 0110011 | rd               | 101 | rs1   | rs2       |           | 0100000   |  |  |  |
| OR      | 0110011 | $_{\mathrm{rd}}$ | 110 | rs1   | rs2       |           | 0000000   |  |  |  |
| AND     | 0110011 | $_{\mathrm{rd}}$ | 111 | rs1   | rs2       |           | 0000000   |  |  |  |
| FENCE   | 0001111 | 00000            | 000 | 00000 | succ      | pred      | 0000      |  |  |  |
| FENCE.I | 0001111 | 00000            | 001 | 00000 | 0000      | 0000      | 0000      |  |  |  |
| ECALL   | 1110011 | 00000            | 000 | 00000 |           | 000000000 | 0000      |  |  |  |
| EBREAF  | 1110011 | 00000            | 000 | 00000 | 9         | 000000001 | 0000      |  |  |  |
| CSRRW   | 1110011 | rd               | 001 | rs1   |           | csr       | New State |  |  |  |
| CSRRS   | 1110011 | rd               | 010 | rs1   | csr       |           |           |  |  |  |
| CSRRC   | 1110011 | rd               | 011 | rs1   |           |           |           |  |  |  |
| CSRRWI  | 1110011 | rd               | 101 | zimm  | - 8       | csr       |           |  |  |  |
| CSRRSI  | 1110011 | rd               | 110 | zimm  | - 8       | csr       |           |  |  |  |
| CSRRCI  | 1110011 | rd               | 111 | zimm  | - 3       | csr       |           |  |  |  |

UFFS - Universidade Federal da Fronteira Sul -

## Bloco operativo monociclo





#### Ciclo de Instrução





#### Ciclo de processamento



Elementos de armazenamentos gatilhados na borda de subida do clock



- Valor é armazenado no final do ciclo de clock anterior e lido no início do clock seguinte
- Saída é igual ao valor armazenado no elemento (não é necessário permissão para ler o valor)

## Bloco operativo multiciclo





## Implementação multiciclo





#### **Controle multiciclo**





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores

## Implementação multiciclo





Quais as limitações da operação multiciclo?

• É possível otimizar a implementação?







• É possível otimizar a implementação?

#### SIM

Paralelismo no nível de Instrução (Instruction Level Paralelism - ILP)

IF ID E W

IF ID E W

IF ID E W

->Tempo



Analogia da Lavanderia

caso ótimo





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores





Analogia da Lavanderia

- caso real (1)





o estágio mais lento (máquina de lavar) define a evolução do pipeline e consequentemente a carga de trabalho (throughput)

UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



Analogia da Lavanderia

- caso real (2)





 Carga de trabalho (throughput) máxima com a duplicação de recursos (máquina de lavar)

UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores





Analogia da Lavanderia

- caso real (3)





- Balanceamento entre estágios nem sempre é possível e estágio mais lento define a carga de trabalho (throughput)

UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



- Objetivo: aumento da carga de trabalho (throughput) e consequente aumento no desempenho com um baixo aumento nos custos de hardware
  - divisão de uma tarefa em N estágios
  - N instruções executadas em paralelo, uma em cada estágio
  - cada um dos N estágios particionado uniformemente
  - a mesma operação é realizada em cada estágio para diferentes instruções
- Throughput x Latência
  - Total de instruções executadas em um período de tempo
  - Tempo de execução de uma instrução







UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores











UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



#### Representação do Pipeline:



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores





#### Representação do Pipeline:

| Tempo (em ciclos de clock)                             |                       |                               |                            |                               |                               |                               |                |                |            |  |  |  |  |
|--------------------------------------------------------|-----------------------|-------------------------------|----------------------------|-------------------------------|-------------------------------|-------------------------------|----------------|----------------|------------|--|--|--|--|
|                                                        | CC 1                  | CC 2 CC                       | 3 CC 4                     | CC 5                          | CC 6                          | CC 7 CC                       | 8 CC           | 9              |            |  |  |  |  |
| Ordem<br>de execução<br>do programa<br>(em instruções) |                       |                               |                            |                               |                               |                               |                |                |            |  |  |  |  |
| lw \$10, 20(\$1)                                       | Busca<br>de instrução | Decodificação<br>de instrução | Execução                   | Acesso<br>de dados            | Write-back                    |                               |                |                |            |  |  |  |  |
| sub \$11, \$2, \$3                                     |                       | Busca<br>de instrução         | Decodificação de instrução | Execução                      | Acesso<br>de dados            | Write-back                    |                |                |            |  |  |  |  |
| add \$12, \$3, \$4                                     |                       |                               | Busca<br>de instrução      | Decodificação<br>de instrução | Execução                      | Acesso<br>de dados            | Write-back     |                |            |  |  |  |  |
| lw \$13, 24(\$1)                                       |                       |                               |                            | Busca<br>de instrução         | Decodificação<br>de instrução | Execução                      | Data<br>access | Write-back     |            |  |  |  |  |
| add \$14, \$5, \$6                                     |                       |                               |                            |                               | Busca<br>de instrução         | Decodificação<br>de instrução | Execution      | Data<br>access | Write-back |  |  |  |  |



 $t_0$   $t_1$   $t_2$   $t_3$   $t_4$   $t_5$  Inst $_0$  IF























|     | t <sub>o</sub> | t <sub>1</sub> | t <sub>2</sub> | t <sub>3</sub> | t <sub>4</sub> | <b>t</b> <sub>5</sub> | t <sub>6</sub> | t <sub>7</sub> | t <sub>8</sub> | t <sub>9</sub> | t <sub>10</sub> |
|-----|----------------|----------------|----------------|----------------|----------------|-----------------------|----------------|----------------|----------------|----------------|-----------------|
| IF  | Io             |                |                |                |                |                       |                |                |                |                |                 |
| ID  |                |                |                |                |                |                       |                |                |                |                |                 |
| EX  |                |                |                |                |                |                       |                |                |                |                |                 |
| MEM |                |                |                |                |                |                       |                |                |                |                |                 |
| WB  |                |                |                |                |                |                       |                |                |                |                |                 |

# **Controle do Pipeline**





## **Controle do Pipeline**







UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores

# **Controle do Pipeline**





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores

# Pipeline ideal



- Objetivo: aumento da carga de trabalho (throughput) e consequente aumento no desempenho com um baixo aumento nos custos de hardware
- Repetição de instruções identicas (Não acontece)
  - Diferentes instruções executam utilizando diferentes estágios levando a ociosidade dentro do Pipeline (exemplo LW/SW - R format) - fragmentação externa
- Cada um dos N estágios particionado uniformemente (Não acontece)
  - Difícil balancear a carga de trabalho realizada em cada estágio. A um dado tempo de ciclo os estágios ficam ociosos - fragmentação interna
- Repetição de operações independentes (Não acontece)
  - o instruções não são independentes uma das outras

47

### Problemas no projeto de Pipeline



- Balanceamento da carga de trabalho entre estágios
  - Quantos estágios colocar? Quais tarefas colocar em cada estágio?
- Manter o Pipeline cheio e sem paradas mesmo diante da ocorrência de eventos que 'param' o fluxo do pipeline
  - dependências:
    - dados
    - controle
  - e conflitos (hazards):
    - estruturais
- Tratar a contenção de recursos (devido a conflitos estruturais)
- Tratar as instuções com latência grande (muitos ciclos)
- Manipular interrupções de HW



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores

## Causas das paradas no Pipeline



- O que acontece quando dois estágios do pipeline necessitam o mesmo recurso?
- Contenção de recursos devido a conflitos estruturais
  - acessar a memória para buscar instruções e dados

 incrementar PC enquanto acessa a ULA para calcular endereço de acesso a memória ou executar operação aritmética



## Causas das paradas no Pipeline



O que acontece quando dois estágios do pipeline necessitam o mesmo recurso?

- Solução 1: Eliminar a causa da contenção
  - Duplicar os recursos e eliminar a causa da contenção

- Solução 2: Detectar a contenção e inserir uma parada (stall) no pipeline
  - Em qual estágio inserir a parada?

# Causas das paradas no Pipeline



- Dependências ou conflitos (hazards) determinadas pela ordem de execução das instruções
- Dependência entre as instruções:
  - Dependências de dados
  - Dependências de controle



- Tipos de dependências de dados:
  - Dependência de fluxo dependência verdadeira: read after write (RAW)
  - Dependências de saída: write after write (WAW)
  - Anti dependência: write after read (WAR)

```
Dependência verdadeira
                                    Read-after-Write
r_3 \leftarrow r_1 \text{ op } r_2

r_5 \leftarrow r_3 \text{ op } r_4
                                     (RAW)
Anti dependência
                                     Write-after-Read
                                     (WAR)
Dependência de saída
                                     Write-after-Write
                                     (WAW)
```



- Tipos de dependências de dados:
  - Dependência de fluxo dependência verdadeira: read after write (RAW)
  - Dependências de saída: write after write (WAW)
  - Anti dependência: write after read (WAR)

 Apenas a dependência verdadeira afeta o funcionamento do pipeline (as demais ocorrem em arquiteturas superescalares)

 Anti dependência e dependência de saída ocorres devido ao número limitado de registradores (solucionado com uma técnica de renomeação de registradores)





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



- Como tratar as dependências verdadeiras:
  - 1) detectar e esperar o registrador ficar disponível
    - inserir bolhas (stalls)
  - 2) detectar e eliminar a dependência no nível de software
    - compilador se encarrega de 'preencher' slots vazios
  - 3) detectar e adiantar o dado para a instrução dependente
    - realizar forwarding
  - 4) prever a necessidade do valor e executar de forma especulativa verificando se acertou a previsão
    - execução especulativa



#### 1) Detectar e esperar o registrador ficar disponível





- Detectar e esperar o registrador ficar disponível Como detectar?
  - Deve inserir a bolha quanto a instrução no estágio
     ID deseja ler um registrador que deve ser escrito e que se encontra nos estágios EX, MEM ou WB



1) Detectar e esperar o registrador ficar disponível

Como resolver?

**Estagios anteriores:** 

Desabilitar escrita em PC, IR e PC+4



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



1) Detectar e esperar o registrador ficar disponível

Como resolver?

Estágios posteriores:

- Insere instrução NOP nos estágio seguinte até

resolver a dependência add \$zero, \$zero, \$zero



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



2) Detectar e eliminar a dependência no nível de software





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores







UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



3) Detectar e adiantar o dado para a instrução dependente Mesmo fazendo adiantamento (forwarding) as vezes é preciso inserir bolha (stall)



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



4) Detectar e eliminar a dependência no nível de software



### Pipeline: dependências de controle



- Pergunta: Qual deve ser a próxima instrução a ser buscada?
  - Resposta: A instrução que estiver no endereço indicado pelo PC
- Todas as instruções a serem executadas, em algum sentido, dependem da instrução anterior
  - Se a instrução estiver no endereço de memória seguinte tudo ocorre maravilhosamente bem (aritméticas, acesso a memória)
  - Se a instrução desviar o fluxo de execução do programa teremos problemas (desvios condicionais e incondicionais)
- Aspecto crítico para manter o pipeline cheio com a sequência correta de instruções UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores

## Pipeline: dependências de controle



- As dependências de controle em um pipeline ocorrem devido a mudança do fluxo de execução das instruções
- Ocorre quando o novo valor de PC não é PC+4, ou seja, quando a instrução anterior é um desvio



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



- Diferentes tipos de desvio possuem diferentes comportamentos
- Diferentes tipos de desvio são tratados de forma distinta

| Tipo                  | Direção no<br>momento da<br>busca | Número de possíveis<br>endereços na<br>próxima busca? | Quando o endereço da próxima busca é resolvido? |
|-----------------------|-----------------------------------|-------------------------------------------------------|-------------------------------------------------|
| Condicional (ex: beq) | Desconhecido                      | 2                                                     | Execução<br>(dependente do registrador)         |
| Incondicional (ex: j) | Sempre tomado<br>(Always taken)   | 1                                                     | Decodificação<br>(PC + offset)                  |
| Call                  | Sempre tomado<br>(Always taken)   | 1                                                     | Decodificação<br>(PC + offset)                  |
| Return                | Sempre tomado<br>(Always taken)   | Muitos                                                | Execução<br>(dependente do registrador)         |
| Indireto              | Sempre tomado<br>(Always taken)   | Muitos                                                | Execução<br>(dependente do registrador)         |

UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



- Possíveis soluções para manter o comportamento funcional do programa correto na presença de desvios no pipeline:
  - a. Inserir bolhas (stalls) no pipeline até conhecer o endereço da próxima instrução a ser executada
  - b. Utilizar desvio atrasado (delayed branch)
  - c. Utilizar execução condicional (predicated execution)
  - d. Buscar os dois endereços do desvio e executar os dois fluxos de instruções possíveis (multipath execution superescalar)
  - e. Utilizar predição de desvio (branch prediction)



a. Inserir bolhas (stalls) no pipeline até conhecer o endereço da próxima instrução a ser executada (flush instructions)



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



a. Inserir bolhas (stalls) no pipeline até conhecer o endereço da próxima instrução a ser executada (flush instructions)



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



a. Inserir bolhas (stalls) no pipeline até conhecer o endereço da próxima instrução a ser executada (flush instructions)



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



- b. Utilizar desvio atrasado (delayed branch)
- Técnica de software (compilador)
- Utiliza o(s) ciclo(s) de clock seguinte(s) a instrução de desvio para colocar instruções do programa
- Instruções inseridas não podem ter dependências com o desvio
- Considerando 2 ciclos de atraso (2 delay slots) →





- c. Utilizar execução condicional (predicated execution)
- Idéia: Compilador converte dependência de controle em dependência de dado
- Suporte no ISA pois instruções possuem um bit (predicado) indicando se a mesma será 'entregue' (committed); Exemplo ISA ARM
- Somente instruções com predicado verdadeiro são entregues
- Instrução 'descartada' vira um NOP



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



#### c. Utilizar execução condicional (predicated execution)

#### Exemplo ISA ARM

| 31 28 | 27    |   |     |     |   |   | 16   | 15   | 8             | 7  |    |    |    | 0       |  |
|-------|-------|---|-----|-----|---|---|------|------|---------------|----|----|----|----|---------|--|
| Cond  | 0 0 1 | O | рсс | ode | 9 | S | Rn   | Rd   |               | Op | er | an | d2 |         |  |
| Cond  | 0 0 0 | 0 | 0   | 0   | Α | S | Rd   | Rn   | Rs            | 1  | 0  | 0  | 1  | Rm      |  |
| Cond  | 0 0 0 | 0 | 1   | U   | A | S | RdHi | RdLo | Rs            | 1  | 0  | 0  | 1  | Rm      |  |
| Cond  | 0 0 0 | 1 | 0   | В   | 0 | 0 | Rn   | Rd   | 0 0 0 0       | 1  | 0  | 0  | 1  | Rm      |  |
| Cond  | 0 1 1 | P | U   | В   | W | L | Rn   | Rd   | Offset        |    |    |    |    |         |  |
| Cond  | 1 0 0 | P | U   | s   | W | L | Rn   |      | Register List |    |    |    |    |         |  |
| Cond  | 0 0 0 | P | U   | 1   | W | L | Rn   | Rd   | Offset1       | 1  | S  | Н  | 1  | Offset2 |  |
| Cond  | 0 0 0 | P | U   | 0   | W | L | Rn   | Rd   | 0 0 0 0       | 1  | S  | Н  | 1  | Rm      |  |

#### Instruction type

Data processing / PSR Transfer Multiply

Long Multiply (v3M / v4 only)

Swap

Load/Store Byte/Word



0000 = EQ - Z set (equal)

0001 = NE - Z clear (not equal)

0010 = HS / CS - C set (unsigned higher or same)

0011 = LO / CC - C clear (unsigned lower)

0100 = MI -N set (negative)

0101 = PL - N clear (positive or zero)

0110 = VS - V set (overflow)

0111 = VC - V clear (no overflow)

1000 = HI - C set and Z clear

1001 = LS - C clear or Z (set unsigned lower or same)

1010 = GE - N set and V set, or N clear and V clear (>or =)

1011 = LT - N set and V clear, or N clearand V set (>)

1100 = GT - Z clear, and either N set and V set, or N clear and V set (>)

1101 = LE - Z set, or N set and V clear,or N clear and V set (<, or =)

1110 = AL - always

1111 = NV - reserved.

UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



c. Utilizar execução condicional (predicated execution)

#### **Problemas:**

- a) Adaptividade: não adaptativa ao comportamento dos desvios (switch-case; if-elseif-else)
- b) CFG complexos: não aplicável para laços ou grafos com fluxos complexos (CFG)
- c) ISA: Requer mudanças profundas no ISA





É possível fazer melhor que colocar bolhas no Pipeline?

- ~20% das instruções nos programas são instruções de controle de fluxo
- ~50% dos desvios 'para frente' são tomados (i.e., if-then-else)
- ~90% dos desvios 'para tras' são tomados (i.e., loop back)

No geral os desvios, tipicamente:

- ~70% são tomados
- ~30% não tomados

[Lee and Smith, 1984]



d. Utilizar predição de desvio

Predição estática (compilação)

#### Estratégias:

- Sempre tomado (always taken)
- Nunca tomado (never taken)
- tomado para trás; não tomado para frente (BTFN)
- baseado em profile



- d. Utilizar predição de desvio
- Predição estática

Ao invés de esperar a dependência verdadeira ser resolvida prever 'nextPC = PC+4'

mantendo a busca de instruções funcionando e o pipeline cheio

É uma boa previsão?

Expectativa: 'nextPC = PC+4' ~86% do tempo. E os outros ~14%?



- d. Utilizar predição de desvio
- Predição dinâmica
  - Vantagens:
    - Predição baseada na história de execução dos desvios
    - Pode se adaptar dinâmicamente as mudanças de comportamento da aplicação
    - não precisa conhecer o perfil das aplicações para garantir boas taxas de acerto
  - Desvantagem:
    - Mais complexo (requer hardware adicional)



- d. Utilizar predição de desvio
- Possui três requisitos para ser alcançado na etapa de busca
  - saber que é uma instrução de desvio condicional
  - a direção do desvio (predição)
  - o endereço do desvio (target address), se for tomado
- → O endereço do desvio permanece o mesmo para desvios condicionais em todas as suas execuções
- → Idéia: armazenar o endereço de desvio calculado em uma execução anterior e vincular o mesmo ao PC



d. Utilizar predição de desvio



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



- d. Utilizar predição de desvio
- Predição dinâmica
- → Last time predictor
  - Branch History Table (ou Branch Target Table)
    - entrada na memória definida pela instrução de desvio (branch)
    - memória indexada pelos bits menos significativos de PC (sem rótulo); contém alias
    - 1 bit de predição armazena o resultado do último desvio (1 - T / 0 - NT)





- d. Utilizar predição de desvio
- Predição dinâmica
- → Last time prediction





UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores



- d. Utilizar predição de desvio
- Predição dinâmica
- → Last time prediction

Problema: O last time predictor muda sua predição a cada erro. Isto leva a muitas situações de dois erros consecutivos. Ex: laços

Solução: Adicionar uma histerese no preditor evitando que ele mude a cada erro

Usar dois bits de predição ao invés de apenas 1 Deve errar duas vezes consecutivas para trocar a previsão



- d. Utilizar predição de desvio
- Predição dinâmica
- → Two bit counter predictor (preditor bimodal)
  - ~90-95% de acerto para muitas aplicações



UFFS - Universidade Federal da Fronteira Sul - Organização de Computadores